约翰内斯·范克兰兹;Hüllermeier,艾克;程伟伟;桑亨公园 基于偏好的强化学习:形式化框架和策略迭代算法。 (英语) Zbl 1260.68328号 机器。学习。 89,编号1-2,123-156(2012).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{J.Fürnkranz}等人,马赫。学习。89,编号1--2,123-156(2012;Zbl 1260.68328) 全文: 内政部
埃克·Hüllermier;约翰内斯·范克兰兹;程伟伟;克劳斯·布林克 通过学习成对偏好进行标签排名。 (英语) Zbl 1184.68403号 Artif公司。智力。 172,第16-17号,1897-1916(2008).MSC公司:68T05型 68吨10 PDF格式BibTeX公司 XML格式引用 \textit{E.Hüllermier}等人,Artif。智力。172,编号16--17,1897--1916(2008;Zbl 1184.68403) 全文: 内政部